from __future__ import print_function, division
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession

spark = SparkSession.builder.master("local").appName("test").getOrCreate()
sc = spark.sparkContext

# 读取csv文件           inferSchema自动判断数据类型默认是False
df_csv = spark.read.csv("../pyspark_data/ratings.csv", header=True, sep=",", inferSchema=True)

# df_csv.show()# 查看数据

# df_csv.printSchema()  # 查看数据的格式
# df_csv.describe().show()  # 查看数据基本的统计值

# 读取json文件
df_json = spark.read.json("../pyspark_data/json_example.json")
aa = df_json.toPandas()
print(aa)
# df_json.show()  # 查看数据
# df_json.describe().show()  # 查看数据基本的统计值
# df_json.printSchema()  # 查看数据的格式  比较奇怪...

# 读取parquet格式的文件
# df_parquest = spark.read.parquet("../pyspark_data/ratings.parquet")  # 没有这个文件，处理时候需要小心
# df_parquest.show()
# df_parquest.printSchema()
# df_parquest.describe().show(0)


